Inférence semi-automatique et interactive de règles sans vérité terrain

نویسندگان

  • Cérès Carton
  • Aurélie Lemaitre
  • Bertrand Coüasnon
چکیده

Dealing with non annotated documents for the design of a document recognition system is not an easy task. In general, statistical methods cannot learn without an annotated ground truth, unlike syntactical methods. However their ability to deal with non annotated data comes from the fact that the description is manually made by a user. The adaptation to a new kind of document is then tedious as the whole manual process of extraction of knowledge has to be redone. In this paper, we propose a method to extract knowledge and generate rules without any ground truth. Using large volume of non annotated documents, it is possible to study redundancies of some extracted elements in the document images. The redundancy is exploited through an automatic clustering algorithm. An interaction with the user brings semantic to the detected clusters. In this work, the extracted elements are some keywords extracted with word spotting. This approach has been applied to old marriage record field detection on the FamilySearch HIP2013 competition database. The results demonstrate that we successfully automatically infer rules from non annotated documents using the redundancy of extracted elements of the documents. MOTS-CLÉS : Reconnaissance de documents structurés, Inférence de règles, Extraction de connaissances, Partitionnement de données, Données non annotées.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

PASCAL : un algorithme d extraction des motifs fréquents

RÉSUMÉ. Nous proposons dans cet article l’algorithme Pascal qui introduit une nouvelle optimisation de l’algorithme de référence Apriori. Cette optimisation est fondée sur le comptage des motifs par inférence, qui utilise le concept de motifs clés. Le support des motifs fréquents non clés peut être inféré du support des motifs clés sans accès à la base de données. Expérimentalement, la comparai...

متن کامل

Anaphora Resolution for Machine Translation (Résolution d'anaphores et traitement des pronoms en traduction automatique à base de règles) [in French]

RÉSUMÉ La traduction des pronoms est l’un des problèmes actuels majeurs en traduction automatique. Étant donné que les pronoms ne transmettent pas assez de contenu sémantique en euxmêmes, leur traitement automatique implique la résolution des anaphores. La recherche en résolution des anaphores s’intéresse à établir le lien entre les entités sans contenu lexical (potentiellement des syntagmes no...

متن کامل

Un raisonnement approximatif pour l'apprentissage supervisé de règles

Résumé. Le cadre de ce travail est celui de la méthode d’apprentissage supervisé SUCRAGE qui se base sur la génération automatique de règles de classification. Ces règles sont exploitées par un moteur d’inférence classique : seules les règles dont les prémisses sont vérifiées par la nouvelle observation à classer sont déclenchées. Ce moteur a été étendu à une inférence approximative qui permet ...

متن کامل

Towards an automatic delineation of lower abdomen structures for conformational radiotherapy based on CT images

The delineation of anatomical structures based on images of the lower abdomen in the frame of dose calculation for conformational radiotherapy is very complex to automatize. We present here the first results of a semi-automatic delineation of the bladder in tomodensitometric (CT) images. The method we have used is based on deformable templates whose deformation is guided by the image and by the...

متن کامل

Inférence de règles de contrôle d'accès pour assurer la confidentialité des données au niveau des vues matérialisées. (Access control rules for materialized views : an inference-based approach)

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016